Cloudflare 推出阻止 AI 爬虫的新功能
Cloudflare Inc. 今天推出了一项新的无代码功能,用于防止人工智能开发者抓取网站内容。
这个功能是公司旗舰级的 CDN(内容分发网络)的一部分。许多网站都使用该平台来加快页面加载速度。据 Cloudflare 称,这一防爬虫功能在其免费和付费版 CDN 中都能使用。
很多 AI 公司利用网络上的公开内容来训练它们的大语言模型 (Large Language Model, LLM)。OpenAI、Google LLC 等公司允许网站运营商选择不被抓取。然而,并不是所有的 LLM 开发者都提供这种选项,这正是 Cloudflare 通过其防爬虫工具希望解决的问题。
新功能使用 AI 来检测自动内容提取行为。据 Cloudflare 称,其软件能够识别出即便是伪装成正常用户请求的爬虫。
“遗憾的是,我们发现一些爬虫运营商试图伪装成真实浏览器,”Cloudflare 的工程师在今天的 博客文章 中写道。“我们长期监测这一活动,并且自豪地说,我们的全球机器学习模型一直能够识别这种活动是爬虫。”
Cloudflare 检测到的爬虫之一是专门为初创搜索引擎公司 Perplexity AI Inc. 收集内容的机器人。上个月,Wired 网站的报道提到,该爬虫请求方式使其看起来像正常用户流量。因此,网站运营商一直难以阻止 Perplexity AI 使用他们的内容。
Cloudflare 会为其平台处理的每次网站访问分配一个从 1 到 99 的评分。分数越低,说明请求更有可能是由爬虫发出的。据公司称,为 Perplexity AI 收集内容的爬虫发出的请求其得分常常低于 30。“当不法分子大规模爬取网站时,他们通常会使用我们能够识别到的工具和框架,”Cloudflare 的工程师解释道。“对于我们检测到的每一个指纹,我们通过 Cloudflare 的网络来判断信任度,该网络平均每秒处理超过 5700 万次请求。”Cloudflare 将不断更新此功能,以应对 AI 抓取爬虫技术指纹的变化和新爬虫的出现。作为这一举措的一部分,公司还推出了一款工具,允许网站运营商报告他们遇到的新爬虫。